Сборный проект - 2

Анализ поведения пользователей мобильного приложения в разрезе контрольных и тестовой групп.

Цель исследования:

  1. Изучить особенности поведения пользователей приложения

  2. Изучить воронку продаж

  3. Исследовать результаты A/A/B-эксперимента, где А - контрольные группы, В - тестовая группа, для которой поменяли шрифты в приложении.

Ход исследования:

  1. Подготовка данных

1.1. Изменить названия столбцов

1.2. Заменить тип данных в столбце с датой и временем

1.3. Добавить столбец с датой

1.4. Дать группам названия вместо номеров

1.5. Проверить данные на дубликаты и пропуски, очистить данные

1.6. Проверить группы на пересечения

1.7. Сделать вывод по разделу

  1. Изучить и проверить данные

2.1. Вывести количество событий

2.2. Вывести количество пользователей

2.3. Вывести количество пользователей в каждой группе

2.4. Вывести среднее количество событий на пользователя

2.5. Вывести среднее количество событий на пользователя в разрезе групп

2.6. Вывести медианное количество событий на пользователя

2.7. Вывести медианное количество событий на пользователя в разрезе групп

2.8. Вывести максимальную и минимальную дату событий

2.9. Визуализировать информацию о количестве событий на каждую дату

2.10. Скорректировать временной промежуток

2.11. Проверить потери в данных

2.12 Проверить структуру оставшихся данных

2.13. Сформировать таблицу в которой соберем для каждого пользователя количество каждого вида действий.

2.14. Сделать вывод по разделу

  1. Изучить воронку событий

3.1. Вывести частоту встречаемости каждого события

3.2. Рассмотреть частому встечаемости событий по пользователям

3.3. Определить события, формирующие воронку и их очередность

3.4. Рассчитать коэффициенты удержания для каждого шага

3.5. Рассчитать удержание для пользователей которые начали свой путь на сайте с первого этапа

3.6. Сделать вывод по разделу

  1. Изучить результаты эксперимента

4.1. Сформировать таблицу с количеством пользователей в каждой группе

4.2. Сформировать таблицу с количеством и процентным соотношением пользователей совершивших каждое действие по группам

4.3. Сформировать гипотезы для тестов

4.4. Проверить, есть ли отличия между двумя контрольными группами на каждом шаге

4.5. Проверить, есть ли отличия между первой контрольной и тестовой группами на каждом шаге

4.6. Проверить, есть ли отличия между второй контрольной и тестовой группами на каждом шаге

4.7. Проверить, есть ли отличия между объединенными контрольными и тестовой группами на каждом шаге

4.8. Сделать вывод по разделу

  1. Сделать общий вывод по исследованию

Импорт библиотек и функций:

Подготовка данных.

Заменим названия столбцов.

Заменим тип данных в столбце с датой и временем.

Добавим столбец с датой.

Заменим названия групп на более понятные.

Удалим дубликаты.

Проверим, есть ли пересечения пользователей в группах.

Пересечения пользователей в группах отсутствуют.

Вывод:

В таблице df пять столбцов :

event_name - название события

user_id - идентификатор пользователя

date_time - дата и время совершения действия

group - группа эксперимента

date - дата совершения действия (без времени)

Таблица содержит данные о 243713 действиях на сайте.

Пропусков в таблице не было, а 413 строк-дубликатов удалены.

Изменены названия столбцов, названия групп эксперимета, заменен тип данных в столбце с датой и временем.

Изучение и проверка данных

Количество событий в логе.

Количество пользователей в логе.

Количество пользователей в каждой группе.

Есть три исследуемые группы, 246 и 247 контрольные, 248 - тестовая, в них примерно одинаковое количество пользователей.

Среднее количество событий приходящееся на пользователя.

Среднее количество событий приходящееся на пользователя по группам.

Среднее количество событий на пользователя 32, но это значение может быть искажено выбросами, чтобы это проверить построим диаграмму.

Как и предполагалось, в данных есть выбросы больше 2000 действий на пользователя, они сильно искажают среднее, так что для оценки активности среднестатистического пользователя лучше использовать медианное значение.

Медианное количество событий приходящееся на пользователя.

Медианное количество событий приходящееся на пользователя по группам.

Максимальная и минимальная даты в логе для каждой из групп.

Минимальная и максимальная даты для каждой группы совпадают.

Построим графики количества событий на каждую дату.

Данных за последнюю неделю июля в разы меньше чем за начало августа. Похоже данные начали собирать именно с начала августа, так что июльские можно отбросить.

Отбросим ненужный промежуток времени

Проверим сколько данных пришлось удалить.

Проверим что в таблице остаись данные пользователей всех групп в равных пропорциях.

Хоть мы и удалили половину исследуемого периода, потери в данных оказались незначительны. Распределение данных по группам эксперимента тоже не пострадало.

Сформируем таблицу в которой соберем для каждого пользователя количество каждого вида действий.

Какой_то пользователь сделал 1085 заказов за неделю, похоже на сбой

В среднем пользователь 16 раз просматривает главную страницу, 6 раз рпедложения и корзину и оплачивает 5 заказов. Но не следует забывать про выбросы, построим диаграммы, чтобы оценить влияние выбросов на среднее.

Нормальное количество просмотров главной страницы не более 80, Экран предложений обычно просматривают не более 50 раз, а для графиков корзины и оплаты выбросы настолько велики, что придется строить новый график, чтобы оценить нормальные значения.

Нормальное количество просмотров корзины не более 25, к оплате редко переходят больше 20 раз.

На всех графиках выбросы в десятки раз превышают нормальные значения, рассмотрим медианные значения.

По группам различий в поведении пользователей не наблюдается.

Вывод:

В логе представлено 5 событий:

MainScreenAppear - главный экран (пользователь заходит на сайт)

OffersScreenAppear - экран предложений (просмотр товарных предложений)

CartScreenAppear - экран корзины (добавление товара в корзину)

PaymentScreenSuccessful - экран успешной оплаты (оплата заказа)

Tutorial - обучение

Представленны данные 7551 пользователей.

Распеределение пользователей по группам равномерное.

В среднем на пользователя приходится 32 события, в разрезе групп различий по среднему количеству событий на пользователя не обнаружено, колебания от 30 до 33 событий можно считать нормальными.

Среднее количество событий на пользователя было сильно искажено выбросами, превосходящими 2000 действий, поэтому при оценке нормальной пользовательской активности следует опираться на медианное значение.

Медианное число действий на пользователя равно 20 событиям, в разрезе групп различий по медианному количеству событий на пользователя не обнаружено, колебания от 19 до 20 событий можно считать нормальными.

Минимальная и максимальная дата для всех групп одинаковы, значит данные для всех групп собирались на протяжении всего срока эксперимента.

При построении графика зависимости кличества событий от даты, заметно что данных за июль очень мало по сравнению с данными за август.

Из исследования были удалены данные полученные за июль, при этом были потеряны данные 17 пользвателей из 7551, и менее 1 процента всех событий в логе. Распределение пользователей по группам также не пострадало.

В среднем пользователь 16 раз просматривает главную страницу, 6 раз рпедложения и корзину и оплачивает 5 заказов. Но не следует забывать про выбросы, построим диаграммы, чтобы оценить влияние выбросов на среднее.

Нормальное количество просмотров главной страницы не более 80, Экран предложений обычно просматривают не более 50 раз, а для графиков корзины и оплаты выбросы настолько велики, что придется строить новый график, чтобы оценить нормальные значения. Нормальное количество просмотров корзины не более 25, к оплате редко переходят больше 20 раз.

На всех графиках выбросы в десятки раз превышают нормальные значения, рассмотрим медианные значения.

Медиана для просмотров главного экрана равна 11 событиям на пользователя, на страницу товаров обычно заходят 2 раза, а вот к корзине и оплате чаще всего вообще не переходят.

Изучим воронку событий.

Рассмотрим частоту встречаемости каждого события в логах.

Чаще всего пользователи открывают главный экран, а реже всего пользуются обучением.

Посмотрим, сколько пользователей совершали каждое действие.

Половину от всех данных составляют открытия главного экрана, это действие совершают 98% пользователей (почему не 100% ведь взаимодействие с сайтом должно начинаться именно здесь? Тут либо ошибка в данных либо пользователь совершил это действие ранее, а в исследуемый период провалился например сразу в корзину, если так, это будет искажать процент удержания для шагов)

Обучением работе с сайтом пользуются около 10% пользователей.

На гравике заметно постепенное уменьшение количества пользователей на каждом шаге, причем для всех групп частота встречаемости событий примерно одинакова.

Порядок событий.

MainScreenAppear - главный экран (пользователь заходит на сайт)

OffersScreenAppear - экран предложений (просмотр товарных предложений)

CartScreenAppear - экран корзины (добавление товара в корзину)

PaymentScreenSuccessful - экран успешной оплаты (оплата заказа)

Tutorial - обучение

Первые 4 действия взамосвязвны и идут последоватально, "обучение" - необязательный этап, большинству пользователей он не понадобился, его в воронку событий включать не будем.

Рассчитаем какая доля пользователей проходит на следующий шаг воронки.

В столбце 'retention_from_previous_step' удержание пользоавателей по сравнению с предыдущим шагом

В столбце 'retention_from_start' удержание пользоавателей по сравнению с открытием главного экрана(то есть началом взаимодействия с сайтом)

Больше всего пользователей уходят после просмотра главного экрана, 37,99% пользователей даже не просматривают товарные предложения, возможно они попадают на сайт случайно, и даже не собирались оформлять заказ, а может быт присутствует какая-то техническая проблема на этом этапе (вылетает приложение/сайт, что-то зависает, не работают кнопки перехода к выбору товара/поиск). Этот момент необходимо уточнить у тестировщиков или службы поддержки.

После просмотра товарных предложений в крзину переходят 81,27% пользователей, а из них 94,61% оплачивают заказ.

Из первончального числа пользователей до оплаты заказа доходят 47,68% пользователей.

Эта информация визуализирована на графиках ниже.

47,68% удержания от открытия сайта до покупки кажутся прекрасным результатом, но есть нюанс. Возможно некоторые пользователи начали своё взяимодействие с сайтом раньше исследуемого периода (например положили товар в корзину еще 20 июля, а оплатили только 2 августа). рассмотрим пользователей, чье взаимодействие с сайтом в исследуемом периоде началось с просмтора главного экрана.

Оставим только тех пользователей, которые прошли полный путь на сайте от главного экрана до покупки.

Оставили только тех пользователей, котрые прошли полный путь. Теперь проверим удержание по ним.

Теперь ситуация выглядит совсем по-другому, от главной страницы до оплаты доходит только 6,12% пользователей.

По очищенным данным видно что с каждым шагом остается все меньший процент пользователей, от главной страницы к товарам переходит 56,62%, от товаров к корзине 42,06%, а оплачивают заказ только 25,69% из тех кто положил его в корзину.

Возможно тут дело в "медлительности" покупателей, у 23,82% пользователей товары лежат в корзине, может быть он оплатит их позже.

Вывод:

Чаще всего пользователи открывают главный экран, на втором месте страница товаров, на третьем страница корзины, далее страница успешной оплаты, а реже всего пользуются обучением.

Первые 4 действия взамосвязаны и идут последоватально, "обучение" - необязательный этап, большинству пользователей он не понадобился, его в воронку событий включать не будем.

Половину от всех данных составляют открытия главного экрана, это действие совершают 98% пользователей (почему не 100% ведь взаимодействие с сайтом должно начинаться именно здесь? Тут либо ошибка в данных либо пользователь совершил это действие ранее, а в исследуемый период провалился например сразу в корзину, если так, это будет искажать процент удержания для шагов)

Обучением работе с сайтом пользуются около 10% пользователей.

На графике частоты встречаемости каждого вида события по группам заметно постепенное уменьшение количества пользователей на каждом шаге, причем для всех групп частота встречаемости событий примерно одинакова.

Больше всего пользователей уходят после просмотра главного экрана, 39% пользователей даже не просматривают товарные предложения, возможно они попадают на сайт случайно, и даже не собирались оформлять заказ, а может быт присутствует какая-то техническая проблема на этом этапе (вылетает приложение/сайт, что-то зависает, не работают кнопки перехода к выбору товара/поиск). Этот момент необходимо уточнить у тестировщиков или службы поддержки.

После просмотра товарных предложений в крзину переходят 81% пользователей, а из них 94% оплачивают заказ.

Из первончального числа пользователей до оплаты заказа доходят 47% пользователей.

47% удержания от открытия сайта до покупки кажутся прекрасным результатом, но есть нюанс. Возможно некоторые пользователи начали своё взяимодействие с сайтом раньше исследуемого периода (например положили товар в корзину еще 20 июля, а оплатили только 2 августа). рассмотрим пользователей, чье взаимодействие с сайтом в исследуемом периоде началось с просмтора главного экрана.

Если рассмотреть данные только тех пользователей, кто начал взаимодействие с сайтом с открытия главной страницы, ситуация выглядит совсем по-другому, от главной страницы до оплаты доходит только 6% пользователей.

По очищенным данным видно что с каждым шагом остается все меньший процент пользователей, от главной страницы к товарам переходит 56%, от товаров к корзине 42%, а оплачивают заказ только 25% из тех кто положил его в корзину.

Возможно тут дело в "медлительности" покупателей, у 23% пользователей товары лежат в корзине, может быть они оплатят их позже.

Очевидно одной недели экперимента мало, похоже что путь пользователя от начала работы с сайтом до оформления заказа часто занимает больше времени.

Изучим результаты эксперимента.

Посмторим сколько пользователей осталось в каждой группе, и проверим их соотношение.

Пользователи равномерно распределены по группам.

Создадим таблицу с количеством и процентным соотношением пользователей совершивших каждое действие по группам

Сформируем гипотезы для тестов.

Нулевая гипотеза: между поведением пользователей в исследуемых группах нет различий

Альтернативная гипотеза: между поведением пользователей в исследуемых группах есть различия

Проверим, есть ли отличия между двумя контрольными группами на каждом шаге.

Проверим, есть ли отличия между первой контрольной и тестовой группами на каждом шаге.

Проверим, есть ли отличия между второй контрольной и тестовой группами на каждом шаге.

Проверим, есть ли отличия между объединенными контрольными и тестовой группами на каждом шаге.

Вывод:

После очистки в логе остались данные 7534 пользователей, они равномерно распределены между группами.

При проверке гипотезы на двух контрольных группах отличий не было выявлено, можно считать, что разбиение на группы работает корректно.

Нулевую гипотезу о присутствии различий между контрольными группами и тестовой не удалось отвергнуть ни в одном тесте.

Общий вывод по исследованию:

В таблице df пять столбцов :

event_name - название события

user_id - идентификатор пользователя

date_time - дата и время совершения действия

group - группа эксперимента

date - дата совершения действия (без времени)

Таблица содержит данные о 243713 действиях на сайте.

Пропусков в таблице не было, а 413 строк-дубликатов удалены.

Изменены названия столбцов, названия групп эксперимета, заменен тип данных в столбце с датой и временем.

В логе представлено 5 событий:

MainScreenAppear - главный экран (пользователь заходит на сайт)

OffersScreenAppear - экран предложений (просмотр товарных предложений)

CartScreenAppear - экран корзины (добавление товара в корзину)

PaymentScreenSuccessful - экран успешной оплаты (оплата заказа)

Tutorial - обучение

Представленны данные 7551 пользователей.

Распеределение пользователей по группам равномерное.

В среднем на пользователя приходится 32 события, в разрезе групп различий по среднему количеству событий на пользователя не обнаружено, колебания от 30 до 33 событий можно считать нормальными.

Среднее количество событий на пользователя было сильно искажено выбросами, превосходящими 2000 действий, поэтому при оценке нормальной пользовательской активности следует опираться на медианное значение.

Медианное число действий на пользователя равно 20 событиям, в разрезе групп различий по медианному количеству событий на пользователя не обнаружено, колебания от 19 до 20 событий можно считать нормальными.

Минимальная и максимальная дата для всех групп одинаковы, значит данные для всех групп собирались на протяжении всего срока эксперимента.

При построении графика зависимости кличества событий от даты, заметно что данных за июль очень мало по сравнению с данными за август.

Из исследования были удалены данные полученные за июль, при этом были потеряны данные 17 пользвателей из 7551, и менее 1 процента всех событий в логе. Распределение пользователей по группам также не пострадало.

В среднем пользователь 16 раз просматривает главную страницу, 6 раз рпедложения и корзину и оплачивает 5 заказов. Но не следует забывать про выбросы, построим диаграммы, чтобы оценить влияние выбросов на среднее.

Нормальное количество просмотров главной страницы не более 80, Экран предложений обычно просматривают не более 50 раз, а для графиков корзины и оплаты выбросы настолько велики, что придется строить новый график, чтобы оценить нормальные значения. Нормальное количество просмотров корзины не более 25, к оплате редко переходят больше 20 раз.

На всех графиках выбросы в десятки раз превышают нормальные значения.

Медиана для просмотров главного экрана равна 11 событиям на пользователя, на страницу товаров обычно заходят 2 раза, а вот к корзине и оплате чаще всего вообще не переходят.

Чаще всего пользователи открывают главный экран, на втором месте страница товаров, на третьем страница корзины, далее страница успешной оплаты, а реже всего пользуются обучением.

Первые 4 действия взамосвязаны и идут последоватально, "обучение" - необязательный этап, большинству пользователей он не понадобился, его в воронку событий включать не будем.

Половину от всех данных составляют открытия главного экрана, это действие совершают 98% пользователей (почему не 100% ведь взаимодействие с сайтом должно начинаться именно здесь? Тут либо ошибка в данных либо пользователь совершил это действие ранее, а в исследуемый период провалился например сразу в корзину, если так, это будет искажать процент удержания для шагов)

Обучением работе с сайтом пользуются около 10% пользователей.

На графике частоты встречаемости каждого вида события по группам заметно постепенное уменьшение количества пользователей на каждом шаге, причем для всех групп частота встречаемости событий примерно одинакова.

Больше всего пользователей уходят после просмотра главного экрана, 39% пользователей даже не просматривают товарные предложения, возможно они попадают на сайт случайно, и даже не собирались оформлять заказ, а может быт присутствует какая-то техническая проблема на этом этапе (вылетает приложение/сайт, что-то зависает, не работают кнопки перехода к выбору товара/поиск). Этот момент необходимо уточнить у тестировщиков или службы поддержки.

После просмотра товарных предложений в крзину переходят 81% пользователей, а из них 94% оплачивают заказ.

Из первончального числа пользователей до оплаты заказа доходят 47% пользователей.

47% удержания от открытия сайта до покупки кажутся прекрасным результатом, но есть нюанс. Возможно некоторые пользователи начали своё взяимодействие с сайтом раньше исследуемого периода (например положили товар в корзину еще 20 июля, а оплатили только 2 августа). рассмотрим пользователей, чье взаимодействие с сайтом в исследуемом периоде началось с просмтора главного экрана.

Если рассмотреть данные только тех пользователей, кто начал взаимодействие с сайтом с открытия главной страницы, ситуация выглядит совсем по-другому, от главной страницы до оплаты доходит только 6% пользователей.

По очищенным данным видно что с каждым шагом остается все меньший процент пользователей, от главной страницы к товарам переходит 56%, от товаров к корзине 42%, а оплачивают заказ только 25% из тех кто положил его в корзину.

Возможно тут дело в "медлительности" покупателей, у 23% пользователей товары лежат в корзине, может быть они оплатят их позже.

Очевидно одной недели экперимента мало, похоже что путь пользователя от начала работы с сайтом до оформления заказа часто занимает больше времени.

После очистки в логе остались данные 7534 пользователей, они равномерно распределены между группами.

При проверке гипотезы на двух контрольных группах отличий не было выявлено, можно считать, что разбиение на группы работает корректно.

Нулевую гипотезу о присутствии различий между контрольными группами и тестовой не удалось отвергнуть ни в одном тесте.

За неделю проведения эксперимента удалось определить, что разбиение на группы работает корректно, в группах примерно равное количество пользователей, и попав в одну группу пользователь остается в ней на протяжении всего эксперимента.

Однако для оценки изменений в поведении пользователей тестовой группы нужно больше времени. Также для исследования будет полезно оценить суммы заказов. Есть вероятность что изменение шрифтов на сайте побудит пользователей заказывать чаще, но на меньшие суммы.

Для доказтельства или опровержения экономической эффективности изменений следует:

  1. Предоставить данные о стоимости покупок клиентов, для расчета среднего чека и выручки (как для уже представленных в логе клиентов, так и для будущих)

  2. Если существует и мобильная и десктопная версия приложения, предоставить информацию о типе устройства пользователей

  3. Продлить эксперимент до конца августа